[논문] Going deeper with convolutions
원문: https://arxiv.org/pdf/1409.4842v1.pdf
제안하는 코드네임 Inception 신경망 구조는 ImageNet Large-Scale Visual Recognition Challenge 2014 (ILSVRC14) 에 사용해서 컴퓨팅 성능을 최적화한 구조로 GoogleLeNet 이라 부른다. 심층 네트워크로 22개의 층을 가지고 분류와 검출에 대한 컨텍스트에서 품질이 평가된다.
1. 서론
2010년대에 컨벌루션 네트워크는 이미지 인식과 검출에서 강력한 하드웨어가 아닌 새로운 네트워크 구조, 새 아이디어 와 알고리즘으로 강력해 졌다.
ILSVRC 2014 이미지를 사용해 GoogleLeNet 2012년 Krizhevsky[9] 가 수행한 파라미터 보다 12배 적은 수로 좋은 정확도를 냈다.
객체 검출에서 가장큰 이득은 심층망(deep network) 혹은 거대 모델의 성능이 아니고 심층 구조와 전통 컴퓨터 비전인 Girshick의 R-CNN [6] 들의 시너지로 얻어 냈다.
이 논문에서 모바일과 임베디드에서 전력과 메모리 사용에 중요성을 고려했다. 그래서 1.5억개 곱을 추론에 유지하도록 설계되었다.
이 논문에서 Lin [12] 가 제시한 Inception 코드네밈의 컴퓨터 비전을 위한 심층망 구조에 집중했다.
여기서 “deep” 은 2가지 다른 의미로 사용했다. 첫번째, Inception module 형태로 네트워크 에 사용한다.
2. 관련 연구
LeNet-5 [10] 이후 CNN 은 적층한 컨벌루션 층의 표준 구조가 되었다. 추가적으로 상수 정규화와 max pooling 층 이후에 적층 컨벌루션 층을 갖을 수 있다.
마지막으로 하나 혹은 다수의 fully-connected layer을 갖는다.
이 기본 디자인의 변형을 이용해 MNIST, CIFAR 이미지 세트의 분류에서 가장 좋은 결과를 도출했다. [9],[21]
아주 큰 Imagenet 같은 데이터세트는 층의 수[12] 를 늘리거나 층의 크기[21],[14] 를 늘리는 한편 Dropout [7] 을 적용해 과적합을 방지한다.
최대 풀링 레이어로 인해 정확한 공간 정보가 손실될 수 있다는 우려에도 불구하고 같은 컨벌루션 네트워크 구조가 [9] 같이 사용되어 지역화 [9][14], 객체감지 [6],[14] [18] [5] 와 인간자세추정 [19]에 적용되었었다.
신경과학에서 영감을 받아, 영장류 시각 피질 모델을 Serre et al. [15]가 다양한 크기의 일련의 고정 Gabor 필터를 Inception 모델과 유사하게 여러 규모를 처리하기 위해 사용 했다.
그러나 고정된 것과는 반대로 [15]의 2계층 심층 모델에서는 Inception 모델의 모든 필터가 학습됩니다. 게다가 인셉션 레이어가 여러 번 반복되어 GoogLeNet의 경우 22레이어 심층 모델이 됩니다.
[논문] Going deeper with convolutions
https://thinkbee.github.io/[논문]_Going_deeper_with_convolutions-c966bf9940c4/